智能论文笔记

最近的深度学习文本到语音（TTS）系统通过产生接近人类平价的语音来实现令人印象深刻的表现。但是，他们遭受了训练稳定性问题的困扰以及中间声学代表与输入文本序列的不正确对齐。在这项工作中，我们介绍了tacotron2的常规版本，旨在减轻培训问题并同时产生单调对齐。我们的方法以额外的术语增强了香草tacotron2的目标函数，该术语惩罚了位置敏感的注意机制中的非单调比对。通过正确调整此正规化术语，我们表明损失曲线变得更加顺畅，同时恢复也会在未见的示例中始终产生单调的对准，即使在早期阶段（占时代总数的13％），而其训练过程中，则完全融合的Tacotron2无法做到。此外，我们提出的正则化方法没有额外的计算开销，同时减少了常见的TTS错误，并根据从50个评估者收集的主观平均意见分数（MOS）来减少了较高的言语自然性。

translated by 谷歌翻译

Supervised Contrastive Learning for Affect Modelling

Kosmas Pinitas , Konstantinos Makantasis , Antonios Liapis , Georgios N. Yannakakis

分类：人工智能 | 机器学习

2022-08-25

传统上，将情感建模视为映射可测量的影响表现的过程，这些过程来自用户输入的多种方式，以影响标签。该映射通常是通过机器学习过程来推断的。如果相反，一个人训练一般的主题不变表示，考虑影响信息，然后使用此类表示形式来建模？在本文中，我们假设影响标签构成了情感表示形式的组成部分，而不仅仅是训练信号，我们探讨了如何采用对比度学习的最新范式来发现目的的一般高级感动式的表示形式建模影响。我们介绍了三种不同的监督对比学习方法，用于考虑影响信息的培训表示。在这项最初的研究中，我们根据来自多种模式的用户信息来测试Recola数据集中唤醒预测的建议方法。结果证明了对比度学习的表示能力及其在提高情感模型准确性方面的效率。除了与端到端的唤醒分类相比，其证据更高的性能之外，最终的表示是通用和主题不合时式的，因为训练受到了任何多模式语料库可用的一般影响信息的指导。

translated by 谷歌翻译

HTML版本

如今，视觉变压器在几个计算机视觉任务中的最新性能，例如图像分类和动作识别，因此非常受欢迎。尽管通过采用卷积神经网络，层次结构和紧凑的形式，视觉变压器的性能得到了极大的改善，但对利用其他数据表示形式的方法的研究有限，以完善从变形金刚网络的多头关注的注意力图。这项工作提出了一种新型的注意机制，称为Multi-manifold注意，可以替代基于变压器网络中的任何标准注意机制。提出的注意力模拟了三个不同的流形的输入空间，即欧几里得，对称的正定和格拉曼，具有不同的统计和几何特性，指导网络来考虑一组丰富的信息，描述了一组描述外观，颜色和质感的信息，图像，用于计算高度描述性的注意图。通过这种方式，指导具有拟议注意力的视觉变压器更加专注于判别特征，从而改善了分类结果，如几个知名图像分类数据集的实验结果所示。

translated by 谷歌翻译